Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Los motores de búsqueda (página 2)




Enviado por Pablo Turmero



Partes: 1, 2

Monografias.com

13
Diseño e implementación
Rastrea las páginas de la fundación Abat Oliba.

Analiza en un proceso completo y sólo cuando alguien decide ejecutarlo.

Está formado por dos clases: DatosURL y Rastreador.
Rastreador

Monografias.com

14
Diseño e implementación
Es la clase que contiene el cuerpo principal del programa y, por lo tanto, será la que se ejecutará.

La primera URL que rastrea (y es la única establecida antes de ejecutar el programa) es http://www.uao.es.

Se basa en una sentencia iterativa y, por lo tanto, se ejecutará siempre y cuando tenga en espera más páginas por rastrear.
Clase Rastreador:
Rastreador

Monografias.com

15
Diseño e implementación
El proceso que sigue al analizar una Web es el siguiente:
Verificará que la URL que está analizando no está en la base de datos para añadirla si no lo está. Si la URL es incorrecta, tendrá métodos para controlar el error.
Analiza la página. Aquí, existirán dos procesos: el de extracción de palabras y el de análisis de hipervínculos hacia otras páginas.
Una vez analizada la página, con las palabras contadas y los vínculos extraídos, actualizará la base de datos.
Volverá a empezar de nuevo y analizará la página primera en la cola de por analizar.
Clase Rastreador:
Rastreador

Monografias.com

16
Diseño e implementación
Es una clase que sirve para que el programador tenga una visión más precisa de los errores que puedan acaecer durante la tarea de rastreo.
A modo de ejemplo, el encuentro inesperado con una URL mal formada (*http://www.uaoes)
Clase DatosURL:
Rastreador

Monografias.com

17
Diseño e implementación
El algoritmo de búsqueda de Wibo ordena los resultados según el número de veces que aparece una de las palabras buscadas en cada página de la base de datos (siempre y cuando aparezca al menos una vez).

Permite buscar documentos conteniendo las palabras buscadas, con la posibilidad de introducir todas las que se quieran.

Se devolverán aquellos documentos que las contengan todas.
Algoritmo de búsqueda

Monografias.com

18
Diseño e implementación
Sigue los siguientes pasos:
A partir de lo que recibe por parte del usuario, fragmenta el texto según los espacios en blanco para obtener las palabras.
Cogerá de la base de datos las páginas que contengan la primera palabra en orden descendiente de apariciones.
A partir de esta lista de páginas, la recorrerá comenzando de la primera URL hasta la última, y para cada palabra comprobará si aparece en la URL que se está analizando. Si no aparece, la eliminará de la lista.
Presentará los resultados.
Algoritmo de búsqueda

Monografias.com

19
Diseño e implementación
Programada en HTML y JSP.

Simple …
Interfaz

Monografias.com

20
Resultados
694 páginas analizadas.

17.155 palabras encontradas.

272.727 relaciones palabras-url.

Tiempo de ejecución del rastreador: 3.4 horas con una media de 18s por página.

Monografias.com

21
Mejoras
Aplicar el protocolo de robots.txt.

Hacerlo a escala de red de redes.

No almacenar los metatags de las páginas.

Mejorar la base de datos.

Optimizar al conjunto.

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter